Basic Statistics (Mean, Median, Mode, Variance)

Machine Learning - পাইথন ডেটা সায়েন্স (Python Data Science) - Statistics for Data Science
305

Statistics হল ডেটার একটি শাখা যা তথ্য সংগ্রহ, বিশ্লেষণ, ব্যাখ্যা, উপস্থাপন এবং সিদ্ধান্ত গ্রহণে সহায়ক। বেসিক স্ট্যাটিস্টিক্যাল ধারণাগুলি যেমন Mean, Median, Mode, এবং Variance ডেটা বিশ্লেষণের জন্য অপরিহার্য। এগুলি ডেটা সেটের বৈশিষ্ট্য এবং প্রবণতা বুঝতে সাহায্য করে।


১. Mean (গড়)

Mean (গড়) হল একটি ডেটা সেটের সব ভ্যালুর যোগফল, যা মোট ভ্যালুর সংখ্যা দ্বারা ভাগ করা হয়। এটি একটি সাধারণ পরিমাপ যা ডেটা সেটের কেন্দ্রীয় প্রবণতা প্রকাশ করে।

Formula:

Mean=i=1nxin\text{Mean} = \frac{\sum_{i=1}^{n} x_i}{n}

যেখানে:

  • i=1nxi\sum_{i=1}^{n} x_i হল ডেটার সব মানের যোগফল,
  • nn হল ডেটার মোট সংখ্যা।

উদাহরণ:

ডেটা: [5, 10, 15, 20, 25]

গড় (Mean):

Mean=5+10+15+20+255=755=15\text{Mean} = \frac{5 + 10 + 15 + 20 + 25}{5} = \frac{75}{5} = 15


২. Median (মিডিয়ান)

Median (মিডিয়ান) হল একটি ডেটা সেটের মধ্যে মধ্যবর্তী মান। এটি ডেটা সেটের সমস্ত মানকে আকারিকভাবে সাজানোর পর মধ্যবর্তী মানকে নির্দেশ করে। যদি ডেটার সংখ্যা অপরিবর্তিত থাকে (অথবা সংখ্যা সংখ্যা জোড় হয়), তখন মিডিয়ান ডেটা সেটের মাঝখানে থাকা মান হবে।

Formula:

  1. Odd number of data points: যদি ডেটার সংখ্যা বিসমিল থাকে, তখন মিডিয়ান হলো মধ্যম মান।
  2. Even number of data points: যদি ডেটার সংখ্যা জোড় থাকে, তখন দুটি মধ্যবর্তী মানের গড় হবে।

উদাহরণ:

ডেটা: [5, 10, 15, 20, 25]

এখানে, 5টি মান রয়েছে, সুতরাং মিডিয়ান হলো মধ্যবর্তী মান: 15

এখন যদি ডেটা সংখ্যা জোড় হয়: ডেটা: [5, 10, 15, 20]

এক্ষেত্রে, দুইটি মধ্যবর্তী মানের গড় নেওয়া হবে:

Median=10+152=12.5\text{Median} = \frac{10 + 15}{2} = 12.5


৩. Mode (মোড)

Mode (মোড) হল একটি ডেটা সেটের সবচেয়ে বার বার আসা মান। এটি একটি ডেটা সেটের মধ্যে সর্বাধিক ঘটিত মানকে প্রকাশ করে। কিছু ডেটা সেটে একাধিক মোড থাকতে পারে, যেমন bimodal (২টি মোড) বা multimodal (একাধিক মোড)।

উদাহরণ:

ডেটা: [1, 2, 2, 3, 3, 3, 4, 5]

এখানে, 3 সবচেয়ে বেশি বার এসেছে, তাই মোড হলো 3


৪. Variance (বৈচিত্র্য)

Variance (বৈচিত্র্য) হল একটি ডেটা সেটের ভ্যালুগুলির গড় থেকে তাদের বিচ্যুতি কতটা বড় তার পরিমাপ। এটি ডেটা সেটের ছড়ানো বা বৈচিত্র্য বোঝায়। Variance একটি স্কোয়ারড পরিমাপ এবং গড় থেকে মানগুলি কিভাবে বিচ্যুত হয়েছে তা বুঝতে সাহায্য করে।

Formula:

Variance=i=1n(xiμ)2n\text{Variance} = \frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n}

যেখানে:

  • xix_i হল প্রতিটি ডেটা পয়েন্ট,
  • μ\mu হল গড় (Mean),
  • nn হল ডেটার মোট সংখ্যা।

উদাহরণ:

ডেটা: [5, 10, 15, 20, 25]

গড় (Mean) μ=15\mu = 15

Variance:

Variance=(515)2+(1015)2+(1515)2+(2015)2+(2515)25\text{Variance} = \frac{(5 - 15)^2 + (10 - 15)^2 + (15 - 15)^2 + (20 - 15)^2 + (25 - 15)^2}{5} Variance=(10)2+(5)2+(0)2+(5)2+(10)25\text{Variance} = \frac{(10)^2 + (5)^2 + (0)^2 + (5)^2 + (10)^2}{5} Variance=100+25+0+25+1005=2505=50\text{Variance} = \frac{100 + 25 + 0 + 25 + 100}{5} = \frac{250}{5} = 50

Variance হল 50


Mean, Median, Mode এবং Variance- এর মধ্যে পার্থক্য

পরিমাপবর্ণনাব্যবহার
Meanডেটা সেটের গড় মান।সাধারণ ডেটা পরিমাপ
Medianমধ্যবর্তী মান। যদি ডেটা সজ্জিত করা হয়, এটি মাঝখানে থাকবে।ডেটার ছড়িয়ে পড়া কম হলে
Modeসবচেয়ে বেশি বার আসা মান।ক্যাটেগরিকাল ডেটার জন্য
Varianceগড় থেকে মানগুলির বিচ্যুতি পরিমাপ।ডেটার বৈচিত্র্য বা বিস্তার

সারাংশ

  • Mean (গড়) হল ডেটা সেটের গড় মান।
  • Median (মিডিয়ান) হল ডেটা সেটের মধ্যবর্তী মান।
  • Mode (মোড) হল ডেটার সবচেয়ে বার বার আসা মান।
  • Variance (বৈচিত্র্য) হল গড় থেকে ডেটার মানগুলির বিচ্যুতি পরিমাপ।

এই চারটি পরিমাপ আপনাকে ডেটা সেটের কেন্দ্রীকরণ, ছড়ানো, এবং বৈচিত্র্য সম্পর্কে মূল্যবান তথ্য প্রদান করে।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...